智能论文笔记

Online pseudo labeling for polyp segmentation with momentum networks

Toan Pham Van , Linh Bao Doan , Thanh Tung Nguyen , Duc Trung Tran , Quan Van Nguyen , Dinh Viet Sang

分类：计算机视觉

2022-09-29

语义分割是开发医学图像诊断系统的重要任务。但是，构建注释的医疗数据集很昂贵。因此，在这种情况下，半监督方法很重要。在半监督学习中，标签的质量在模型性能中起着至关重要的作用。在这项工作中，我们提出了一种新的伪标签策略，可提高用于培训学生网络的伪标签的质量。我们遵循多阶段的半监督训练方法，该方法在标记的数据集上训练教师模型，然后使用训练有素的老师将伪标签渲染用于学生培训。通过这样做，伪标签将被更新，并且随着培训的进度更加精确。上一个和我们的方法之间的关键区别在于，我们在学生培训过程中更新教师模型。因此，在学生培训过程中，提高了伪标签的质量。我们还提出了一种简单但有效的策略，以使用动量模型来提高伪标签的质量 - 训练过程中原始模型的慢复制版本。通过应用动量模型与学生培训期间的重新渲染伪标签相结合，我们在五个数据集中平均达到了84.1％的骰子分数（即Kvarsir，CVC-ClinicdB，Etis-laribpolypdb，cvc-colondb，cvc-colondb，cvc-colondb和cvc-300）和CVC-300）只有20％的数据集用作标记数据。我们的结果超过了3％的共同实践，甚至在某些数据集中取得了完全监督的结果。我们的源代码和预培训模型可在https://github.com/sun-asterisk-research/online学习SSL上找到

translated by 谷歌翻译

A Multi-scale Graph Signature for Persistence Diagrams based on Return Probabilities of Random Walks

Chau Pham , Trung Dang , Peter Chin

分类：机器学习

2022-09-28

持久图（PDS）通常以同源性类别的死亡和出生为特征，以提供图形结构的拓扑表示，通常在机器学习任务中有用。先前的作品依靠单个图形签名来构建PD。在本文中，我们探讨了多尺度图标志家族的使用，以增强拓扑特征的鲁棒性。我们提出了一个深度学习体系结构来处理该集合的输入。基准图分类数据集上的实验表明，与使用图神经网络的最新方法相比，我们所提出的架构优于其他基于同源的方法，并实现其他基于同源的方法，并实现竞争性能。此外，我们的方法可以轻松地应用于大尺寸的输入图，因为它不会遭受有限的可伸缩性，这对于图内核方法可能是一个问题。

translated by 谷歌翻译

A Novel Approach for Pill-Prescription Matching with GNN Assistance and Contrastive Learning

Trung Thanh Nguyen , Hoang Dang Nguyen , Thanh Hung Nguyen , Huy Hieu Pham , Ichiro Ide , Phi Le Nguyen

分类：计算机视觉

2022-09-02

药物误解是可能导致对患者造成不可预测后果的风险之一。为了减轻这种风险，我们开发了一个自动系统，该系统可以正确识别移动图像中的药丸的处方。具体来说，我们定义了所谓的药丸匹配任务，该任务试图匹配处方药中药丸所拍摄的药丸的图像。然后，我们提出了PIMA，这是一种使用图神经网络（GNN）和对比度学习来解决目标问题的新方法。特别是，GNN用于学习处方中文本框之间的空间相关性，从而突出显示带有药丸名称的文本框。此外，采用对比度学习来促进药丸名称的文本表示与药丸图像的视觉表示之间的跨模式相似性的建模。我们进行了广泛的实验，并证明PIMA在我们构建的药丸和处方图像的现实数据集上优于基线模型。具体而言，与其他基线相比，PIMA的准确性从19.09％提高到46.95％。我们认为，我们的工作可以为建立新的临床应用并改善药物安全和患者护理提供新的机会。

translated by 谷歌翻译

On the Pros and Cons of Momentum Encoder in Self-Supervised Visual Representation Learning

Trung Pham , Chaoning Zhang , Axi Niu , Kang Zhang , Chang D. Yoo

分类：计算机视觉

2022-08-11

指数移动平均值（EMA或动量）被广泛用于现代自学学习（SSL）方法，例如MOCO，以提高性能。我们证明，这种动量也可以插入无动量的SSL框架（例如SIMCLR），以提高性能。尽管它广泛用作现代SSL框架中的基本组成部分，但动量造成的好处尚未得到充分理解。我们发现它的成功至少可以部分归因于稳定性效应。在第一次尝试中，我们分析了EMA如何影响编码器的每个部分，并揭示了编码器输入附近的部分起着微不足道的作用，而后者则具有更大的影响。通过监测编码器中每个块的输出的总体损失的梯度，我们观察到，最终层在反向传播过程中倾向于比其他层的波动大得多，即稳定性较小。有趣的是，我们表明，使用EMA到SSL编码器的最后一部分，即投影仪，而不是整个深层网络编码器可以提供可比或可比性的性能。我们提出的仅投影仪的动量有助于维持EMA的好处，但避免了双向计算。

translated by 谷歌翻译

FedDRL: Deep Reinforcement Learning-based Adaptive Aggregation for Non-IID Data in Federated Learning

Nang Hung Nguyen , Phi Le Nguyen , Duc Long Nguyen , Trung Thanh Nguyen , Thuy Dung Nguyen , Huy Hieu Pham , Truong Thao Nguyen

分类：机器学习 | 计算机视觉

2022-08-04

跨不同边缘设备（客户）局部数据的分布不均匀，导致模型训练缓慢，并降低了联合学习的准确性。幼稚的联合学习（FL）策略和大多数替代解决方案试图通过加权跨客户的深度学习模型来实现更多公平。这项工作介绍了在现实世界数据集中遇到的一种新颖的非IID类型，即集群键，其中客户组具有具有相似分布的本地数据，从而导致全局模型收敛到过度拟合的解决方案。为了处理非IID数据，尤其是群集串数据的数据，我们提出了FedDrl，这是一种新型的FL模型，它采用了深厚的强化学习来适应每个客户的影响因素（将用作聚合过程中的权重）。在一组联合数据集上进行了广泛的实验证实，拟议的FEDDR可以根据CIFAR-100数据集的平均平均为FedAvg和FedProx方法提高了有利的改进，例如，高达4.05％和2.17％。

translated by 谷歌翻译

PiC: A Phrase-in-Context Dataset for Phrase Understanding and Semantic Search

Thang M. Pham , Seunghyun Yoon , Trung Bui , Anh Nguyen

分类：自然语言处理 | 人工智能

2022-07-19

自Bert（Devlin等，2018）以来，学习上下文化的单词嵌入一直是NLP中的事实上的标准。然而，学习上下文化短语嵌入的进展受到缺乏人类通知的语句基准基准的阻碍。为了填补这一空白，我们提出了PIC- 〜28K名词短语的数据集伴随着它们的上下文Wikipedia页面，以及一套三个任务，这些任务增加了评估短语嵌入质量的难度。我们发现，在我们的数据集中进行的培训提高了排名模型的准确性，并明显地将问题答案（QA）模型推向了近人类的准确性，而在语义搜索上，鉴于询问短语和段落，在语义搜索上是95％的精确匹配（EM）。有趣的是，我们发现这种令人印象深刻的性能的证据是因为质量检查模型学会了更好地捕获短语的共同含义，而不管其实际背景如何。也就是说，在我们的短语中歧义歧义（PSD）任务上，SOTA模型的精度大大下降（60％EM），在两个不同情况下未能区分相同短语的两种不同感觉。在我们的3任任务基准测试中的进一步结果表明，学习上下文化的短语嵌入仍然是一个有趣的开放挑战。

translated by 谷歌翻译

An FPGA-based Solution for Convolution Operation Acceleration

Trung Dinh Pham , Bao Gia Bach , Lam Trinh Luu , Minh Dinh Nguyen , Hai Duc Pham , Khoa Bui Anh , Xuan Quang Nguyen , Cuong Pham Quoc

分类：人工智能 | 机器学习

2022-06-09

基于硬件的加速度是促进许多计算密集型数学操作的广泛尝试。本文提出了一个基于FPGA的体系结构来加速卷积操作 - 在许多卷积神经网络模型中出现的复杂且昂贵的计算步骤。我们将设计定为标准卷积操作，打算以边缘-AI解决方案启动产品。该项目的目的是产生一个可以一次处理卷积层的FPGA IP核心。系统开发人员可以使用Verilog HDL作为体系结构的主要设计语言来部署IP核心。实验结果表明，我们在简单的边缘计算FPGA板上合成的单个计算核心可以提供0.224 GOPS。当董事会充分利用时，可以实现4.48 GOP。

translated by 谷歌翻译

Robust and Resource-Efficient Data-Free Knowledge Distillation by Generative Pseudo Replay

Kuluhan Binici , Shivam Aggarwal , Nam Trung Pham , Karianto Leman , Tulika Mitra

分类：机器学习 | 人工智能

2022-01-09

无数据知识蒸馏（KD）允许从训练有素的神经网络（教师）到更紧凑的一个（学生）的知识转移在没有原始训练数据。现有的作品使用验证集来监视学生通过实际数据的准确性，并在整个过程中报告最高性能。但是，验证数据可能无法在蒸馏时间可用，使得记录实现峰值精度的学生快照即可。因此，实际的无数据KD方法应该是坚固的，理想情况下，在蒸馏过程中理想地提供单调增加的学生准确性。这是具有挑战性的，因为学生因合成数据的分布转移而经历了知识劣化。克服这个问题的直接方法是定期存储和排练生成的样本，这增加了内存占据措施并创造了隐私问题。我们建议用生成网络模拟先前观察到的合成样品的分布。特别地，我们设计了具有训练目标的变形式自动化器（VAE），其定制以最佳地学习合成数据表示。学生被生成的伪重播技术排练，其中样品由VAE产生。因此，可以防止知识劣化而不存储任何样本。在图像分类基准测试中的实验表明，我们的方法优化了蒸馏模型精度的预期值，同时消除了采样存储方法产生的大型内存开销。

translated by 谷歌翻译

A dual benchmarking study of facial forgery and facial forensics

Minh Tam Pham , Thanh Trung Huynh , Van Vinh Tong , Thanh Tam Nguyen , Thanh Thi Nguyen , Hongzhi Yin , Quoc Viet Hung Nguyen

分类：计算机视觉

2021-11-25

近年来，视觉伪造达到了人类无法识别欺诈的复杂程度，这对信息安全构成了重大威胁。出现了广泛的恶意申请，例如名人的假新闻，诽谤或勒索，政治战中的政治家冒充，以及谣言的传播吸引观点。结果，已经提出了一种富有的视觉验证技术，以试图阻止这种危险的趋势。在本文中，我们使用全面的和经验方法，提供了一种基准，可以对视觉伪造和视觉取证进行深入的洞察。更具体地，我们开发一个独立的框架，整合最先进的假冒生成器和探测器，并使用各种标准来测量这些技术的性能。我们还对基准测试结果进行了详尽的分析，确定了在措施与对策之间永无止境的战争中的比较参考的方法的特征。

translated by 谷歌翻译

Double Trouble: How to not explain a text classifier's decisions using counterfactuals synthesized by masked language models?

Thang M. Pham , Trung Bui , Long Mai , Anh Nguyen

分类：自然语言处理 | 人工智能

2021-10-22

数十种归因方法背后的一个原理是在输入功能（此处，令牌）作为其归属中删除之前和之后的预测差异。流行的输入边缘化方法（IM）方法（Kim等，2020）使用BERT代替令牌，从而产生更合理的反事实。而Kim等人。（2020）报道IM是有效的，我们发现这个结论并不令人信服，因为论文中使用的Deletionbert指标对IM有偏见。重要的是，这种偏见存在于基于缺失的指标中，包括插入，充分性和全面性。此外，我们使用6个指标和3个数据集的严格评估没有发现IM比剩余的（LOO）基线更好的证据。我们发现IM不比LOO更好的两个原因：（1）从输入中删除单个单词仅略微降低了分类器的精度；（2）一个高度可预测的词总是给出接近零的归因，无论其对分类器的真正重要性。相比之下，通过BERT使石灰样品更加自然可在几种咆哮指标下始终提高酸橙精度。

translated by 谷歌翻译